什么是“统计显著性”?

作者:Ruben Geert van den Berg,发表于 Statistics A-Z

统计显著性 (Statistical significance) 是指在样本中发现与零假设 (null hypothesis) 存在特定偏差(或更极端偏差)的概率。统计显著性在研究论文中通常被称为 p 值 (p-value) (“概率值 (probability value)”的缩写),或简称为 p

一个小的 p 值基本上意味着在某个零假设下,你的数据不太可能出现。一个略微武断的惯例是如果 p < 0.05,则拒绝零假设

Sig(2-tailed) in SPSS T-Test Output

示例 1 - 10 次抛硬币

我有一枚硬币,我的零假设是它是平衡的——这意味着它有 0.5 的概率正面朝上。我抛了 10 次硬币,可能会出现 0 到 10 次正面朝上的结果。假设我的硬币真的是平衡的,这些结果的概率如下所示。从技术上讲,这是一个 二项分布 (binomial distribution)。计算这些概率的公式基于数学和(非常普遍的)独立同分布变量的假设。

请记住,概率是相对频率。因此,找到 5 个正面朝上的概率为 0.24 意味着,如果我抽取 1,000 个抛 10 次硬币的样本,大约 24% 的样本应该会得到 5 个正面朝上。

Statistical Significance in Binomial Distribution

现在,我的 10 次抛硬币中实际上有 9 次正面朝上。上图表明,在 10 次抛硬币的样本中找到 9 个或更多个正面朝上的概率,p = 0.01。如果我的硬币真的是平衡的,那么找到我刚刚发现的结果的概率只有百分之一。

因此,基于我的 N = 10 次抛硬币的样本,我拒绝零假设:我不再相信我的硬币毕竟是平衡的。

示例 2 - T 检验 (T-Test)

一个由 360 人组成的样本参加了一项语法测试。我们想知道男性受访者的得分是否与女性受访者的得分不同。我们的零假设是,平均而言,男性受访者的得分与女性受访者的得分相同。下表总结了此样本的均值和标准差。

Means Table Scores By Gender

请注意,在此样本中,女性的得分比男性高 3.5 分。但是,样本通常与总体略有不同。问题是:如果_所有_男性和_所有_女性的平均得分相等,那么在 N = 360 的样本中找到此平均差值或更极端差值的概率是多少?这个问题可以通过运行 独立样本 t 检验 (independent samples t-test) 来回答。

检验统计量 - T (Test Statistic - T)

那么,我们可以合理预期什么样的样本均值差异呢?嗯,这取决于:

  • 标准差 (standard deviations)
  • 我们拥有的样本大小 (sample sizes)

因此,我们将 3.5 分的平均差值标准化,得到 t = -2.2。因此,这个 t 值——我们的检验统计量 (test statistic)——只是针对样本大小和标准差校正后的样本均值差异。有趣的是,我们知道 t 的 抽样分布 (sampling distribution) ——因此也知道概率。

单尾统计显著性 (1-Tailed Statistical Significance)

1-Tailed Significance in T-Distribution

单尾统计显著性 (1-tailed statistical significance) 是指在样本中发现与零假设存在特定偏差(或更大偏差)的概率。在我们的示例中,p (单尾) ≈ 0.014。找到 t ≤ -2.2(对应于我们的 3.5 分的平均差值)的概率为 1.4%。如果总体均值真的相等,并且我们抽取 1,000 个样本,我们预计只有 14 个样本会出现 3.5 分或更大的平均差值。

简而言之,如果总体平均差值为零,则此样本结果非常不可能发生。因此,我们拒绝零假设。结论:男性和女性可能在我们的测试中得分_不同_。

一些科学家会精确地报告这些结果。但是,这里的一个缺陷是,我们的推理表明,如果 t 值很大而不是很小,我们将保留零假设。一个大的 t 值最终会出现在分布的右尾。但是,我们的 p 值仅考虑左尾,而我们(小的)t 值 -2.2 最终出现在左尾中。如果我们同时考虑这两种可能性,我们应该报告 p = 0.028,即双尾显著性。

双尾统计显著性 (2-Tailed Statistical Significance)

2-Tailed Significance in T-Distribution

双尾统计显著性 (2-tailed statistical significance) 是指在样本中发现与零假设存在特定_绝对_偏差(或更大偏差)的概率。对于 t 检验,在 H0 下,非常小以及非常大的 t 值都不太可能出现。因此,我们不应该像报告单尾 p 值时那样忽略分布的右尾。这表明如果 t 是 2.2 而不是 -2.2,我们将不会拒绝零假设。但是,在 H0 下,这两个 t 值同样不太可能发生。

一个惯例是计算 t = -2.2 和相反效应的 p 值:t = 2.2。将它们相加得到我们的双尾 p 值:在我们的示例中,p (双尾) = 0.028。因为分布围绕 0 对称,所以这两个 p 值相等。因此,我们不妨将单尾 p 值加倍。

单尾还是双尾显著性? (1-Tailed or 2-Tailed Significance?)

那么,你应该报告单尾还是双尾显著性?首先,许多统计检验——例如 ANOVA (方差分析)卡方检验 (chi-square tests)——只会产生单尾 p 值,所以这就是你将报告的内容。但是,这个问题_确实_适用于 t 检验 (t-tests)z 检验 (z-tests) 和其他一些检验。

数据分析师对哪种方法更好没有完全的共识。我个人总是报告双尾 p 值(如果可用)。一个主要原因是,当某些检验仅产生单尾 p 值时,这通常包括不同方向的影响。

“他到底想说什…?”这需要一些解释,对吧?

T 检验还是 ANOVA? (T-Test or ANOVA?)

我们使用 t 检验 (t-test) 比较了年轻人和中年人在语法测试中的表现。假设年轻人做得更好。这导致了 0.096 的单尾显著性。此 p 值_不_包括相同幅度的相反影响:中年人做得更好,得分相同。下图说明了这些情况。

1 Tailed Statistical Significance in T-Test

然后,我们使用 ANOVA (方差分析) 比较了年轻人、中年人和老年人。年轻人表现最好,老年人表现最差,中年人恰好介于两者之间。这导致了 0.035 的单尾显著性。现在,此 p 值_确实_包括相同幅度的相反影响

1 Tailed Statistical Significance in ANOVA F-Test

现在,如果 ANOVA 的 p 值总是包括不同方向的影响,那么为什么你在报告 t 检验时_不_包括这些影响呢?事实上,独立样本 t 检验 (independent samples t-test) 在技术上是 ANOVA 的一个特例:如果你对 2 个组运行 ANOVA,得到的 p 值将与对相同数据进行 t 检验的双尾显著性相同。同样的原则适用于 z 检验与卡方检验。

“备择假设” (The “Alternative Hypothesis”)

有时会通过声称研究人员_期望_在给定方向上产生影响来捍卫报告单尾显著性。但是,我无法验证这一点。也许这种“备择假设”只是为了使结果在统计上更显著而编造的。

其次,期望并不能排除可能性。如果有人绝对确定某些影响将具有某种方向,那么为什么要首先使用统计检验呢?

统计显著性与实际显著性 (Statistical Versus Practical Significance)

那么,“统计显著性 (statistical significance)”真正告诉我们什么?嗯,它基本上说的是,在某个总体中,某些影响很可能不是零。那么,这真的是我们_真正_想知道的吗?平均差值、相关性 (correlation) 或其他影响“不是零”?

不,当然不是。

我们_真正_想知道的是平均差值、相关性或其他影响有多大。但是,这不是统计显著性告诉我们的。

例如,在 N = 1,000 的样本中,相关性为 0.1 时,p ≈ 0.0015。这是高度统计显著的:总体相关性很可能不是 0.000… 但是,在 散点图 (scatterplot) 中,0.1 的相关性与 0 无法区分。因此,它可能在实践中并不显著

相反,当 N = 10 时,相关性为 0.5 时,p ≈ 0.14,因此在统计上不显著。尽管如此,散点图显示了我们的变量之间存在很强的关系。但是,由于我们的样本量非常小,因此这种强关系很可能仅限于我们的小样本:如果我们的总体相关性确实为零,则有 14% 的概率发生这种情况。

Statistical Versus Practical Significance - Scatterplots and Correlations

这里的基本问题是,如果样本量足够大,则_任何_影响在统计上都是显著的。因此,为了具有任何重要性,结果必须同时具有统计显著性和实际显著性。置信区间 (confidence intervals) 很好地结合了这两条信息,因此可以认为比仅仅具有统计显著性更有用。

感谢阅读!